Dịch tự động

Dịch tự động hay còn gọi là dịch máy (tiếng Anh: machine translation) là một nhánh của xử lý ngôn ngữ tự nhiên thuộc phân ngành trí tuệ nhân tạo, nó là sự kết hợp giữa ngôn ngữ, dịch thuậtkhoa học máy tính. Như tên gọi, dịch tự động thực hiện dịch một ngôn ngữ này (gọi là ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (gọi là ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch. Khó khăn của việc thiết kế chương trình dịch tự động là làm sao khử nhập nhằng hiệu quả. Nói về tính nhập nhằng, đây là khái niệm chỉ tính không rõ ràng của ngôn ngữ, chẳng hạn khi viết từ đường kính thì vẫn chưa rõ là nó chỉ một loại "chất ngọt dùng để pha làm đồ uống" hay là "đoạn thẳng đi qua tâm và nối hai điểm của đường tròn, của mặt cầu". Nhập nhằng như ví dụ vừa rồi là do hiện tượng đồng âm (hoặc đồng tự) gây ra, một số kiểu nhập nhằng khác như nhập nhằng từ loại, nhập nhằng từ đa nghĩa. Khi dịch tự động từ tiếng Việt sang tiếng Anh, khó khăn đầu tiên lại là việc xác định ranh giới từ, không giống như tiếng Anh (và nhiều ngôn ngữ khác) mỗi từ đã mang trọn vẹn một nghĩa và được xác định ranh giới qua khoảng trắng, tiếng Việt là ngôn ngữ đơn lập do vậy có rất nhiều từ ghép, nếu không xác định đúng sẽ xuất hiện kiểu dịch từng từ rồi ghép lại với nhau ví dụ như từ "miễn bàn" có thể bị dịch thành free table. Với tiếng Anh do là ngôn ngữ biến hình nên việc xác định từ loại dễ hơn, ngoài ra nó cũng ít từ đồng tự (hai từ có ký tự hoàn toàn giống nhau nhưng mang nghĩa khác nhau), còn về từ đa nghĩa tiếng Anh cũng như tiếng Việt và hầu như tất cả các ngôn ngữ khác đều rất phức tạp, muốn xác định nghĩa chính xác phải phải thực hiện phân tích văn cảnh.Sau khi xác định nghĩa phù hợp của từ, công việc tiếp theo là sắp xếp để tạo thành câu hoàn chỉnh. Nếu hai ngôn ngữ có cấu trúc càng khác nhau bao nhiêu công việc này càng phức tạp bấy nhiêu, với những ngôn ngữ gần nhau như tiếng Anh và tiếng Pháp công việc tương đối đơn giản, nhưng giữa tiếng Pháp và tiếng Trung thì rất khó khăn. Để sắp xếp người ta đưa vào các cấu trúc ngữ pháp hết sức phức tạp, áp dụng nhiều kiến thức toán học nhưng thực tế cho thấy hiệu quả của chúng vẫn không được tốt.Một cách tiếp cận khác trong lĩnh vực này là dựa vào tư liệu đã dịch sẵn của con người, điển hình là Google Translate, nó nạp hàng triệu trang tư liệu sau đó thực hiện các thao tác mà nó gọi là thống kê kiến thức để phân tích cho các lần dịch tự động sau này, kiểu dịch rất gần với thao tác tìm kiếm - lĩnh vực đặc biệt mạnh của Google.